基于拍拍贷真实业务数据样本,本文探索了P2P交易中的交易现象,主要框架如下:
在R中设置工作路径,并导入包含有数据集的csv文件。
获取数据后,观察三个数据集在质量和整洁度方面是否存在问题。篇幅原因只展示LC数据集。
## 'data.frame': 328553 obs. of 21 variables:
## $ ListingId : int 126541 133291 142421 149711 152141 162641 171191 175451 182261 193831 ...
## $ 借款金额 : int 18000 9453 27000 25000 20000 20000 3940 20000 25000 10475 ...
## $ 借款期限 : int 12 12 24 12 6 12 6 12 12 6 ...
## $ 借款利率 : num 18 20 20 18 16 14 18 18 16 18 ...
## $ 借款成功日期 : Factor w/ 756 levels "2015-01-01","2015-01-02",..: 119 70 477 84 22 79 172 439 75 100 ...
## $ 初始评级 : Factor w/ 6 levels "A","B","C","D",..: 3 4 5 3 3 1 5 2 2 3 ...
## $ 借款类型 : Factor w/ 4 levels "APP闪电","其他",..: 2 2 3 2 4 3 4 3 2 4 ...
## $ 是否首标 : Factor w/ 2 levels "否","是": 1 1 1 1 1 1 1 1 1 1 ...
## $ 年龄 : int 35 34 41 34 24 36 27 32 33 25 ...
## $ 性别 : Factor w/ 2 levels "女","男": 2 2 2 2 2 2 1 2 1 2 ...
## $ 手机认证 : Factor w/ 2 levels "成功认证","未成功认证": 1 2 1 1 1 1 1 1 1 1 ...
## $ 户口认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 1 2 1 1 1 1 1 2 1 ...
## $ 视频认证 : Factor w/ 2 levels "成功认证","未成功认证": 1 2 2 1 1 1 1 1 1 1 ...
## $ 学历认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 征信认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 淘宝认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 历史成功借款次数: int 11 4 5 6 13 7 15 7 7 9 ...
## $ 历史成功借款金额: num 40326 14500 21894 36190 77945 ...
## $ 总待还本金 : num 8713 7891 11726 9703 0 ...
## $ 历史正常还款期数: int 57 13 25 41 118 56 75 52 41 49 ...
## $ 历史逾期还款期数: int 16 1 3 1 14 0 8 0 2 4 ...
## ListingId 借款金额 借款期限 借款利率
## Min. : 126541 Min. : 100 Min. : 1.00 Min. : 6.5
## 1st Qu.:11908871 1st Qu.: 2033 1st Qu.: 6.00 1st Qu.:20.0
## Median :19523251 Median : 3397 Median :12.00 Median :20.0
## Mean :19079479 Mean : 4424 Mean :10.21 Mean :20.6
## 3rd Qu.:26298621 3rd Qu.: 5230 3rd Qu.:12.00 3rd Qu.:22.0
## Max. :32819531 Max. :500000 Max. :24.00 Max. :24.0
##
## 借款成功日期 初始评级 借款类型 是否首标
## 2017-01-25: 3558 A: 10284 APP闪电:112079 否:241090
## 2017-01-20: 3063 B: 33188 其他 : 97302 是: 87463
## 2016-12-14: 2266 C:131705 普通 :118103
## 2016-12-02: 2033 D:134860 电商 : 1069
## 2017-01-09: 1859 E: 17027
## 2017-01-04: 1806 F: 1489
## (Other) :313968
## 年龄 性别 手机认证 户口认证
## Min. :17.00 女:106607 成功认证 :123007 成功认证 : 10105
## 1st Qu.:24.00 男:221946 未成功认证:205546 未成功认证:318448
## Median :28.00
## Mean :29.14
## 3rd Qu.:33.00
## Max. :56.00
##
## 视频认证 学历认证 征信认证
## 成功认证 : 18501 成功认证 :114124 成功认证 : 9606
## 未成功认证:310052 未成功认证:214429 未成功认证:318947
##
##
##
##
##
## 淘宝认证 历史成功借款次数 历史成功借款金额 总待还本金
## 成功认证 : 1152 Min. : 0.000 Min. : 0 Min. : 0
## 未成功认证:327401 1st Qu.: 0.000 1st Qu.: 0 1st Qu.: 0
## Median : 2.000 Median : 5000 Median : 2542
## Mean : 2.323 Mean : 8786 Mean : 3722
## 3rd Qu.: 3.000 3rd Qu.: 10355 3rd Qu.: 5447
## Max. :649.000 Max. :7405926 Max. :1172653
##
## 历史正常还款期数 历史逾期还款期数
## Min. : 0.000 Min. : 0.0000
## 1st Qu.: 0.000 1st Qu.: 0.0000
## Median : 5.000 Median : 0.0000
## Mean : 9.948 Mean : 0.4233
## 3rd Qu.: 13.000 3rd Qu.: 0.0000
## Max. :2507.000 Max. :60.0000
##
发现了如下问题:
最大的成功还款期数为2507,因为还款一般为每隔一个月还款一次,而成功还款2507相当于成功还款208年,这显然是错误数据。通过拍拍贷官方网站( https://www.ppdai.com/help/aboutus )查询到该公司业务开展于2007年6月,所以可确定最大的成功还款期数在10年,即120次。据此剔除错误数据。
根据项目提供的说明,初始评级排序应当有所调整:“AAA”, “AA”, “A”, “B”, “C”, “D”, “E”, “F”,以方便合理展示绘图成果。
经过数据清理,最大的成功还款期数为
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 5.000 9.773 13.000 120.000
借款金额的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2033 3397 4424 5230 500000
由此可见以下有趣的现象:
在对借款金额分布进行了对数和开方转化后,可以发现金额大部分集中1000~10000范围内。
由此可见,男性比例更高。
借款期限的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 6.00 12.00 10.21 12.00 24.00
由此可见,男性和女性在选择借款期限上都较为一致,一般选择6期或者12期。
所有交易的还款状态分布是怎么样的?
由此可见,大部分是未还款或“已正常还款”,有一定量的“已逾期还款”,“已提前还清该标全部欠款’”和“已部分还款”比较少。
大部分借款人的初始评级分布是怎样的?
由此可见,大部分借款人的初始评级为B或者C。男性的C类较多,女性的B类较多。
需要说明的是,本文之后的变量绘图和分析采用的数据均来自LC数据集。
拍拍贷数据分析项目一共提供了3个数据集。包含了成交时间从2015年1月1日到2017年1月30日的328553支信用标。
## 'data.frame': 328553 obs. of 21 variables:
## $ ListingId : int 126541 133291 142421 149711 152141 162641 171191 175451 182261 193831 ...
## $ 借款金额 : int 18000 9453 27000 25000 20000 20000 3940 20000 25000 10475 ...
## $ 借款期限 : int 12 12 24 12 6 12 6 12 12 6 ...
## $ 借款利率 : num 18 20 20 18 16 14 18 18 16 18 ...
## $ 借款成功日期 : Factor w/ 756 levels "2015-01-01","2015-01-02",..: 119 70 477 84 22 79 172 439 75 100 ...
## $ 初始评级 : Factor w/ 6 levels "A","B","C","D",..: 3 4 5 3 3 1 5 2 2 3 ...
## $ 借款类型 : Factor w/ 4 levels "APP闪电","其他",..: 2 2 3 2 4 3 4 3 2 4 ...
## $ 是否首标 : Factor w/ 2 levels "否","是": 1 1 1 1 1 1 1 1 1 1 ...
## $ 年龄 : int 35 34 41 34 24 36 27 32 33 25 ...
## $ 性别 : Factor w/ 2 levels "女","男": 2 2 2 2 2 2 1 2 1 2 ...
## $ 手机认证 : Factor w/ 2 levels "成功认证","未成功认证": 1 2 1 1 1 1 1 1 1 1 ...
## $ 户口认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 1 2 1 1 1 1 1 2 1 ...
## $ 视频认证 : Factor w/ 2 levels "成功认证","未成功认证": 1 2 2 1 1 1 1 1 1 1 ...
## $ 学历认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 征信认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 淘宝认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 历史成功借款次数: int 11 4 5 6 13 7 15 7 7 9 ...
## $ 历史成功借款金额: num 40326 14500 21894 36190 77945 ...
## $ 总待还本金 : num 8713 7891 11726 9703 0 ...
## $ 历史正常还款期数: int 57 13 25 41 118 56 75 52 41 49 ...
## $ 历史逾期还款期数: int 16 1 3 1 14 0 8 0 2 4 ...
## 'data.frame': 3203276 obs. of 10 variables:
## $ ListingId : int 126541 126541 126541 126541 126541 126541 126541 126541 126541 126541 ...
## $ 期数 : int 1 2 3 4 5 6 7 8 9 10 ...
## $ 还款状态 : int 1 1 1 1 1 1 2 1 2 2 ...
## $ 应还本金 : num 1380 1401 1422 1443 1465 ...
## $ 应还利息 : num 270 249 228 207 185 ...
## $ 剩余本金 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ 剩余利息 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ 到期日期 : Factor w/ 1424 levels "2015-01-19","2015-01-27",..: 127 157 188 219 249 280 310 341 372 401 ...
## $ 还款日期 : Factor w/ 779 levels "\\N","2015-01-04",..: 149 179 210 241 271 302 333 363 395 425 ...
## $ recorddate: Factor w/ 1 level "2017-02-22": 1 1 1 1 1 1 1 1 1 1 ...
## 'data.frame': 292539 obs. of 37 variables:
## $ ListingId : int 1693100 1713229 1904026 2158281 2257194 2272036 2315058 2332817 2365175 2370723 ...
## $ 借款金额 : int 3629 3000 3629 3919 14000 40000 3200 3000 4260 11987 ...
## $ 借款期限 : int 6 12 12 12 12 6 3 6 7 12 ...
## $ 借款利率 : num 12 12 12 18 18 15 10 12 12 16 ...
## $ 借款成功日期 : Factor w/ 654 levels "2015/1/1","2015/1/10",..: 21 24 90 98 108 114 114 150 150 151 ...
## $ 初始评级 : Factor w/ 8 levels "A","AA","AAA",..: 2 2 2 5 5 4 2 2 2 4 ...
## $ 借款类型 : Factor w/ 5 levels "APP闪电","其他",..: 4 4 4 4 4 5 4 4 4 2 ...
## $ 是否首标 : Factor w/ 2 levels "否","是": 1 2 1 1 1 2 1 2 1 1 ...
## $ 年龄 : int 31 24 27 28 46 32 25 38 25 33 ...
## $ 性别 : Factor w/ 2 levels "女","男": 2 2 2 2 2 2 2 2 2 1 ...
## $ 手机认证 : Factor w/ 5 levels "其他","已婚",..: 3 3 3 3 3 3 3 3 3 5 ...
## $ 户口认证 : Factor w/ 9 levels "中专","初中及以下",..: 6 6 6 4 6 4 6 6 6 6 ...
## $ 视频认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 1 2 2 1 2 ...
## $ 学历认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 1 1 ...
## $ 征信认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 淘宝认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 历史成功借款次数: Factor w/ 83 levels "0","1","10","103",..: 2 1 2 51 7 1 41 1 2 41 ...
## $ 历史成功借款金额: Factor w/ 19185 levels "0","100","1000",..: 10834 1 10834 2900 15316 1 1611 1 10834 1196 ...
## $ 总待还本金 : num 1313 0 879 6523 11491 ...
## $ 历史正常还款期数: int 2 0 5 25 53 0 8 0 3 8 ...
## $ 历史逾期还款期数: int 2 0 0 0 0 0 0 0 0 1 ...
## $ 我的投资金额 : int 200 500 500 100 100 206 400 51 51 100 ...
## $ 当前到期期数 : int 6 12 12 12 12 6 3 6 7 12 ...
## $ 当前还款期数 : int 6 9 12 2 0 6 3 6 4 9 ...
## $ 已还本金 : num 200 500 500 100 0 206 400 51 51 100 ...
## $ 已还利息 : num 7 29.8 33.04 1.72 0 ...
## $ 待还本金 : num 0 0 0 0 100 0 0 0 0 0 ...
## $ 待还利息 : num 0 0 0 0 9.92 0 0 0 0 0 ...
## $ 标当前逾期天数 : int 0 0 0 0 589 0 0 0 0 0 ...
## $ 标当前状态 : Factor w/ 234 levels "0","0.03","0.05",..: 232 232 232 232 234 232 232 232 232 232 ...
## $ 上次还款日期 : Factor w/ 792 levels "0","1","10","11",..: 259 36 510 188 792 45 247 83 296 345 ...
## $ 上次还款本金 : Factor w/ 4138 levels "0","0.05","0.07",..: 2343 1140 2896 4096 4138 2422 689 3868 2005 2405 ...
## $ 上次还款利息 : Factor w/ 409 levels "0","0.01","0.02",..: 31 106 39 23 409 43 112 6 1 19 ...
## $ 下次计划还款日期: Factor w/ 1025 levels "0.92","0.93",..: 1025 1025 1025 1025 154 1025 1025 1025 1025 1025 ...
## $ 下次计划还款本金: Factor w/ 2054 levels "0","0.01","0.02",..: 2054 2054 2054 2054 1826 2054 2054 2054 2054 2054 ...
## $ 下次计划还款利息: Factor w/ 355 levels "0","0.01","0.02",..: 355 355 355 355 151 355 355 355 355 355 ...
## $ recorddate : Factor w/ 201 levels "0","0.94","1.27",..: 33 33 33 33 33 33 33 33 33 33 ...
结合这三个数据集,我深入挖掘LC数据集的信息,主要关注借款金额这个变量。其他各变量的变化会如何影响借款金额。从这个角度观察数据可以对借款人和投资人对行为提供参考:借款人如何改进自身的指标从而能够借到更多的钱,投资人面对的是怎样的借款交易市场。
初始评级、年龄、认证方式、历史成功借款情况等因素,都可能会影响借款金额。并且这些因素对借款金额和投资行为都有很强烈的影响。
项目数据集中提供了很多种认证方式,我将其赋予不同的权重,构建了线性组合模型,设计了一个新变量:身份认证指数,来综合各种认证方式的效果。
线性组合模型为
\[ 身份认证指数 = (1.0 * 手机认证指数 + 2.0 * 户口认证指数 + 1.0 * 视频认证指数 + 2.0 * 学历认证指数 + 3.0 * 征信认证指数 + 1.0 * 淘宝认证指数)/(1+2+1+2+3+1) \]
显然,当所有方式均成功认证,则为满分(1分)。
本文提出这种思路,并给出示例,如何确定权重采用怎样的组合模型可以根据相关资料进行深入探索。
身份认证指数的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.1000 0.1276 0.2000 1.0000
身份认证指数的平均值分布为0.13分,中位数为0.1分。由此发现,大量的借款人并没有进行身份认证。应当采用用户运营手段来促使借款人认证,获取足够数据源便于分析。
基于 LC_clean 数据集,定义了 历史成功单次借款金额(Historical successful single loan amount)简写为 hs1LA,即每笔交易借款金额平均值。
历史成功单次借款金额的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 0 2500 2811 4000 500000
由此可见,
对借款金额分布的探究中,进行了对数和开方的处理。结合统计量成果,可以直观感受到P2P借贷业务主要是小金额交易。由于大量交易是小金额的,所以选取小于50 000元的交易,从而可以发现更多成果。
针对LC_clean数据集进行分析。通过绘制散点图矩阵,对许多组变量同时进行对比,获得数据集的整体感知。
LC数据集中部分变量的相关性分析矩阵如下,
每一笔交易中的借款或投资金额与借款人的偿还能力、消费需求和社会属性有关系。
根据散点图矩阵可发现,借款金额和年龄(社会属性)具有正相关性,由此可以大胆推测借款金额与身份认证指数也具有一定相关性,在之后的研究可以深入探索。
借款金额与以往的借款表现(如历史成功借款次数和金额)具有很强的相关性。而历史借款数据之间有很强的正相关性。
针对LC数据集,探索每笔交易中的借款金额和各变量之间的关系,现在挑选了年龄、身份认证指数、与历史成功单次借款金额。
由此可见,在借款金额用对数处理后,大量交易处在100 000元以下,借款人年龄在55岁以下的区间内。还有以下发现:
从2015-01-01到2017-01-30的样本数据来看,用户进行身份认证的意愿并不强烈。由所得到数据来看,有以下发现:
由此可见以下有趣的现象:
LC数据集中的初始等级的数量统计如下,
## AAA AA A B C D E F
## 0 0 10245 33136 131518 134770 17015 1486
箱形图绘制如下,
四分位数间距结果如下,
## LC_clean$初始评级: AAA
## NULL
## --------------------------------------------------------
## LC_clean$初始评级: AA
## NULL
## --------------------------------------------------------
## LC_clean$初始评级: A
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 1327 3100 5891 5822 500000
## --------------------------------------------------------
## LC_clean$初始评级: B
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 1500 3099 7538 5887 500000
## --------------------------------------------------------
## LC_clean$初始评级: C
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2134 3300 4137 5000 300000
## --------------------------------------------------------
## LC_clean$初始评级: D
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2030 3500 3926 5500 150000
## --------------------------------------------------------
## LC_clean$初始评级: E
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2408 4000 3743 5000 80000
## --------------------------------------------------------
## LC_clean$初始评级: F
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 150 2000 3000 3081 3692 18000
通过箱形图和四分位数间距计算结果,可以发现,
LC数据集中的借款类型的数量统计如下,
## APP闪电 其他 普通 电商
## 112011 97161 117931 1067
箱形图绘制如下,
四分位数间距结果如下,
## LC_clean$借款类型: APP闪电
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 934 1942 2765 4000 20000
## --------------------------------------------------------
## LC_clean$借款类型: 其他
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2517 3328 4119 4721 500000
## --------------------------------------------------------
## LC_clean$借款类型: 普通
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 3000 4684 5244 6500 120000
## --------------------------------------------------------
## LC_clean$借款类型: 电商
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3000 12000 50000 115561 177209 500000
由此可发现,借款类型为“电商”的用户大部分初始评级为B或C,数据量也没有其他类型的多,但是借款金额不论从均值还是中位数来说都比其他类型高了很多。
项目数据中提供了多种认证方式,我在之前的文字中提到了身份认证指数,这是一个线性模型的结果值,能够综合各种认证方式的效果。我好奇的是每一位用户在进行了某种方式的认证后,是否会影响到他再进行其他认证?先来看下各种认证方式之间的相关性。
手机认证的比例为
## [1] "37.4%"
户口认证的比例为
## [1] "3.02%"
视频认证的比例为
## [1] "5.59%"
学历认证的比例为
## [1] "34.7%"
征信认证的比例为
## [1] "2.91%"
淘宝认证的比例为
## [1] "0.35%"
由此可发现以下有趣的现象,
通过上述图文成果可发现以下有趣的现象,
各种认证方式之间并没有很强的相关性,视频认证和手机认证和户口认证之间具有一定的相关性。手机和学历认证是最多被采用的方式,采用淘宝认证的比例最低。
借款人年龄、身份认证指数、历史成功单次借款金额(hs1LA)与借款金额都是正相关性。可以建立拟合模型找出借款金额与三个变量间对定量统计关系。
LC数据集中年龄的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.00 24.00 28.00 29.14 33.00 56.00
按照年龄切块分组,获取相应年龄分组内的借款金额中位数值,可发现随着年龄越大,借款金额的中位数值越大。
按照性别分面绘图如下,
增加了性别这个维度后,可发现以下有趣现象,
按照借款类型分面绘图如下,
增加了借款类型这个维度后,可发现以下有趣现象,
##
## 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
## 131722 65089 74567 40766 7027 3252 3718 1148 481 387
## 1
## 13
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.1000 0.1276 0.2000 1.0000
可能由于平台推广和用户认可程度导致大量用户没有进行身份认证。这导致了身份认证指数平均值偏低。所以在之后的分析中我提到了不考虑认证指数为0的情况,这种假设分析的意义在于当身份认证得到用户普遍认可时,来预测这种平台价值得到充分发挥的理想情况。
首先将身份认证指数划分区段,并赋予不同的区段名称,例如0 - 0.1为Fair。具体如下,
在不同认证指数范围分组范围内,借款金额的变化情况如下,
由此可发现以下有趣的现象,
历史成功单次借款金额的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 0 2500 2811 4000 500000
需要说明的是,上图是放大了历史成功单次借款金额为100-25 000元范围内的变化情况。
由此可发现以下有趣的现象,
可能某一位借款人会借一大笔钱,但是相比历史成功单次借款金额并不大,比如两者比值小于1,说明这位借款人在这笔交易中并没有突破之前的借款金额均值,属于保守的借款行为。我创建了一个新变量借款行为指数,来描述这种是否突破历史借款行为的情况。如果借款行为指数大于1,则为冲动,小于1则为保守。
需要说明的是,如果某笔交易的历史成功单次借款金额hs1LA为0的话,作为分母的除法运算就无法进行,则统一设定这类情况的hs1LA值为1。
借款行为指数的统计量如下,
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.7 1.2 1516.4 1500.0 500000.0
按照借款类型分类计算的借款行为指数统计量如下,
## LC_clean$借款类型: APP闪电
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.011 0.485 1.057 1270.572 1500.000 12900.000
## --------------------------------------------------------
## LC_clean$借款类型: 其他
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.7 1.0 446.3 1.5 500000.0
## --------------------------------------------------------
## LC_clean$借款类型: 普通
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.087 0.919 2.177 2350.519 5000.000 30000.000
## --------------------------------------------------------
## LC_clean$借款类型: 电商
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1 0.8 1.5 32587.1 6000.0 500000.0
按照借款类型分类计算的借款行为指数统计量如下,
## LC_clean$初始评级: AAA
## NULL
## --------------------------------------------------------
## LC_clean$初始评级: AA
## NULL
## --------------------------------------------------------
## LC_clean$初始评级: A
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.5 1.0 2219.4 2.9 500000.0
## --------------------------------------------------------
## LC_clean$初始评级: B
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.6 1.1 2493.6 1500.0 500000.0
## --------------------------------------------------------
## LC_clean$初始评级: C
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01 0.62 0.99 556.21 1.74 300000.00
## --------------------------------------------------------
## LC_clean$初始评级: D
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.011 0.785 1.769 2047.295 5000.000 20000.000
## --------------------------------------------------------
## LC_clean$初始评级: E
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.012 1.509 2015.000 2433.016 4500.000 19928.000
## --------------------------------------------------------
## LC_clean$初始评级: F
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.078 0.915 2.326 1226.799 3000.000 10000.000
根据以上图文成果,在进行一笔新交易时有以下有趣现象可以发现,
本文建立了针对借款金额的拟合模型。以年龄、身份认证指数、历史成功单次借款金额(hs1LA)为自变量,借款金额为因变量,并对各个变量做了转化,从拟合的结果来看,效果并不是很好。
可能将借款金额进行分块拟合,会得到较好的结果。这也是之后研究过程中,对预测模型的改进点。
借款金额 ~ 年龄、身份认证指数、历史成功单次借款金额(hs1LA)的拟合模型如下,
##
## Calls:
## m1: lm(formula = I(log(LC_clean$借款金额)) ~ I(abs(LC_clean$年龄 -
## 29)^4), data = LC_clean)
## m2: lm(formula = I(log(LC_clean$借款金额)) ~ I(abs(LC_clean$年龄 -
## 29)^4) + LC_clean$身份认证指数, data = LC_clean)
## m3: lm(formula = I(log(LC_clean$借款金额)) ~ I(abs(LC_clean$年龄 -
## 29)^4) + LC_clean$身份认证指数 + LC_clean$hs1LA, data = LC_clean)
##
## ================================================================================
## m1 m2 m3
## --------------------------------------------------------------------------------
## (Intercept) 8.025*** 7.842*** 7.821***
## (0.001) (0.002) (0.002)
## I(abs(LC_clean$年龄 - 29)^4) 0.000*** 0.000*** 0.000***
## (0.000) (0.000) (0.000)
## LC_clean$身份认证指数 1.399*** 1.292***
## (0.010) (0.010)
## LC_clean$hs1LA 0.000***
## (0.000)
## --------------------------------------------------------------------------------
## R-squared 0.004 0.061 0.079
## adj. R-squared 0.004 0.061 0.079
## sigma 0.812 0.788 0.781
## F 1187.629 10672.569 9351.147
## p 0.000 0.000 0.000
## Log-likelihood -397302.209 -387555.030 -384435.494
## Deviance 216366.600 203888.028 200048.384
## AIC 794610.418 775118.060 768880.988
## BIC 794642.522 775160.865 768934.495
## N 328170 328170 328170
## ================================================================================
需要说明的是,本部分数据均来自LC数据集。
根据前文提到的单变量分析成果,本次绘图重点关注金额在50 000元以下的业务。如需关注其他范围交易可以参考之前的绘图。
需要再次说明的是在拍拍贷这个P2P平台中,大量交易还属于小额借款,本图重点关注金额在50 000元以下的业务。
本图融合了多变量绘图分析过程中可以观察到的大部分成果。
依托拍拍贷平台的交易数据,本文探索了借款金额及相关变量的变化关系。选取了数据集中年龄、初始评级和性别的这些初始变量,根据业务场景创建了身份认证指数和历史成功单次借款金额两个衍生变量,通过可视化手段探究这些变量和借款金额的变化关系。
根据现象分析出的成果对现实交易做出了一些维度的刻画,但仍需要在今后进一步完善以下问题: